查看原文
其他

深势科技Uni-RNA预训练模型开启AI for核酸研究新时代

开拓创新的 深势科技 DP Technology 2024-03-28

 导语 

1958年,英国科学家弗朗西斯·克里克首次提出中心法则(genetic central dogma)。这是生命科学发展史上的重大成就,使生命科学研究实现了从现象到本质的根本性飞跃。在中心法则描述的生物世界中,遗传信息通过RNA中间体从DNA到蛋白质进行传递,而RNA分子是其中至关重要的枢纽性分子。从基因表达到转录调控,RNA分子参与到几乎所有的生命活动中,揭秘RNA的复杂行为规律将有利于科学家更加完备理解生物世界。

在AI for Science领域,生命科学因其繁冗而驳杂的广度、曲折而晦涩的深度,无疑是诸多学科中的皇冠。AI在生命科学中的蓬勃发展既能为金山银山带来源源不断的动力,也能为绿水青山带来绵绵不绝的生机。而对RNA的研究则是皇冠上愈发闪耀的明珠,与生物医药环环相扣,和人民健康息息相关。

自从1984年第一款ASO药物得到FDA批准以来,RNA疗法一直被寄予着巨大希望,有助于解决疾病位点蛋白不可成药的难题,极大的拓展可药靶点的选择并从中心法则更上游的环节进行调控,从而有望开发出更有效的新型药物。然而复杂且庞大的序列和结构空间使得科学家对RNA空间的探索十分局限,RNA体系的复杂性也使得相关实验数据可重复性差,整体数量少,整合程度低。因此科学家急切需要一种能够高效全面探索描述RNA空间的计算工具,以实现对RNA研究的数字化革新

自ChatGPT发布以来,预训练通用大模型以惊人的速度不断迭代和更新,展现了前所未有的能力。值得注意的是,作为通用模型,其本质内核为自然语言处理模型,即以我们日常使用的语言作为处理对象。语言作为信息的载体,承载了人类对于科学方方面面信息总结和知识积累。在回顾科学发展的一般规律时,我们可以发现其遵循着从数据(Data)、到信息(Information)、到知识(Knowledge)最终到智慧(Wisdom)的DIKW路径。但对于具体的科学数据和信息,我们往往需要深入结合学科底层特性,以其特殊的“语言” 作为载体,如在生命科学中以蛋白序列和核酸序列这样有别于一般自然语言的方式来承载信息。因此,在这个大模型的时代,针对各个学科场景打造基础专用科学大模型的广泛需求呼之欲出,更是成为了AI for Science从小农作坊模式转向安卓模式的重要基石。作为AI for Science的引领者和践行者,深势科技在这个方向推动做出了若干开创性的工作,如原子间相互作用势函数预训练模型DPA,和基于结构的化学空间预训练模型Uni-Mol等。此外,一些世界顶尖AI机构也在积极投身科学大模型的建设,例如前Facebook的针对蛋白序列的ESM 模型和最近刚登上Nature的华为盘古气象大模型。

在这样的背景下,Uni-RNA应运而生。Uni-RNA利用约10亿条高质量RNA序列进行了大规模的预训练,几乎涵盖了所有RNA空间,充分挖掘了RNA序列的潜在信息。通过在广泛的下游任务中微调模型,Uni-RNA在RNA结构预测、mRNA序列性质预测和RNA功能预测等三个RNA领域的七个主要任务中全部取得了领先的结果,更是为未来RNA领域研究的深度革新提供了无限可能。

目前,Uni-RNA文章已发布在预印本网站上:
https://www.biorxiv.org/content/10.1101/2023.07.11.548588v1

底层预训练框架创新



为了利用大规模无标签数据进行预训练,我们构造了一个大规模的RNA序列数据集,通过预训练模型框架,结合有效的预训练任务策略,在大规模分布式集群上进行了预训练模型的训练。

RNA序列数据集基于现有公开的RNA序列相关数据库构建。经过长度截断和去冗余得到高质量的RNA序列相关数据,并将其统一映射到DNA字母表中,最终数据集包含约10亿条RNA序列,几乎覆盖了目前所有RNA序列相关的数据,为预训练提供了广阔的样本空间,充分挖掘RNA序列的潜在信息。
Uni-RNA全面针对RNA优化了经典BERT预训练网络框架,使用自研CUDA算子和Flash Attention等先进技术。相比于传统Transformer模型,Uni-RNA的训练速度提高5倍以上,并能自适应RNA序列空间的特点,使得预训练更加有的放矢,行之有效,从而在所有下游应用中的表现都取得突破性提升。

七大下游任务具体的效果提升


2.1 RNA结构预测
准确预测 RNA 的二、三级结构至关重要,在 RNA 科学领域具有重要意义。高精度预测RNA结构的能力有利于更好阐明 RNA 功能,进而帮助研究人员揭示 RNA 和小分子、肽、蛋白质等物质间复杂的相互作用。
  • 2.1.1 二级结构

RNA二级结构的准确预测有重要意义,可以帮助我们深入探索RNA折叠机制,RNA-蛋白质相互作用及RNA疗法开发等重大问题,是RNA结构预测中的基础性任务。

本次试验使用了二级结构领域广泛用于评测的bpRNA数据集进行评估,结果显示Uni-RNA在各项指标上均达到SOTA水平,远超已有所有方法。
  • 2.1.2 三级结构

RNA三级结构对于理解RNA介导的过程(如基因表达、蛋白合成与细胞调节)所涉及的生物机制极为重要。Contact map提供了对三维空间中碱基相互作用的有效记录方式,也提供了更严格的全局约束。

我们发现使用Uni-RNA可以有效提高捕捉RNA空间结构的能力,在非二级结构contact map的预测中明显能比One-Hot表示更好地捕捉长程相互作用(上图highlight 的off-diagonal 区域),表明Uni-RNA 有提取整体结构信息的能力和进一步精确预测RNA三维结构的潜力。
2.2 mRNA序列性质预测
近年来,mRNA作为疫苗的潜力引发了广泛的关注,对mRNA序列进行优化可以有效提高疫苗表达效率。过往的研究主要针对于编码区,但非编码区对mRNA翻译过程及稳定性等多个方面有重要影响。Uni-RNA主要针对非编码区进行了实验,在现有的非编码区数据集上的预测达到SOTA水平
  • 5'UTR平均核糖体载量预测

  • 3'APA近端亚型占比预测

5'UTR 和3'UTR均为mRNA设计中重要但未能被很好涵盖的非编码区域。在这两个任务中的出色表现,加之Uni-RNA在结构预测中的碾压性优势,为基于Uni-RNA打造革命性计算驱动的mRNA理性设计平台打下了坚实的基础。

2.3 RNA功能特性预测
RNA在生物体内扮演重要角色,对其功能进行精准预测可以有效推动RNA科学领域的发展。目前主流的性能预测方法仍需通过资源密集型的实验手段,而Uni-RNA借助预训练获得的序列表示,可以更好地揭示序列与功能间的潜在信息,从而增强各个下游任务的表现。我们在ncRNA功能聚类,剪切位点预测,RNA修饰三个数据集上进行了测试,均达到了SOTA水平。这表明Uni-RNA已经开始学习到了生物进化的深层次原理,从而为之后以其为出发点来研究生命的本质和起源指引了方向。
  • ncRNA功能聚类

  • 剪切位点预测

  • RNA修饰预测

总结



Uni-RNA的出现深入挖掘了RNA序列中的信息,为RNA相关领域提供了一个基于预训练的新颖的基础设施,也将为RNA研究领域提供新的研究范式,构建了AI for RNA的“安卓系统”。将为下游任务“App”,如mRNA疫苗设计、RNA结构预测、ASO开发、SiRNA疗法创新、靶向RNA小分子开发、Aptamer研发等众多关键难题提供全新的解决方案。

Bohrium APP:

https://app.bohrium.dp.tech/dprnass

扫码前往Bohrium APP

扫码加入Uni-RNA交流群

关于深势科技

深势科技是“AI for Science”科学研究范式的引领者和践行者,致力于运用人工智能和分子模拟算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。

我们开创性地提出了「多尺度建模+机器学习+高性能计算」的革命性科学研究新范式,并推出了Bohrium®微尺度科学计算云平台、Hermite®药物计算设计平台、RiDYMO™强化动力学平台及电池材料计算设计平台等微尺度工业设计基础设施,颠覆了现有研发模式,打造“计算引导实验、实验优化设计”的全新范式。

深势科技是国家高新技术企业、北京市“专精特新”中小企业,总部位于北京,并在上海、深圳等城市布局研发中心。科研技术团队由中国科学院院士领衔,汇集了超百位数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中公司的博士及博士后占比超过35%。核心成员获得过2020年全球计算机高性能计算领域的最高奖项“戈登贝尔奖”,相关工作当选2020年中国十大科技进展和全球AI领域十大技术突破。

↓↓点击“阅读原文”,浏览完整文章

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存